Index de l'AideTable des matières

Découvrez l'Exploration intelligente

Le but de l'Exploration intelligente consiste à trouver des corrélations intéressantes dans une base de données à l'aide d'une variété d'outils d'apprentissage automatique et d'algorithmes comme les partitions, les prévisions et les tendances. Lorsque l'Exploration intelligente est exécutée, une série d'explorations de données sera effectuée et rassemblée dans une Présentation.

Les explorations de données produites peuvent être groupées en trois catégories principales :

  • Graphiques en courbes : basés sur des algorithmes de prévision.
  • Graphiques en bulles et en nuages de points : basés sur des algorithmes de partitionnement.
  • Autres types de graphiques : basés sur les tendances.

Réduction de dimensions et classement

Comme il est impossible d'effectuer des requêtes sur toutes les possibilités (colonnes de la base de données), un processus de classement et de réduction de dimensions préalable est utilisé.

Si vous disposez des données d'échantillon de chaque colonne, il est possible de retirer des données de l'analyse en fonction de simples tests de distribution, de détection de bruit et autres méthodes heuristiques.

Si vous disposez de données d'échantillon de plusieurs tableaux joints (ensemble de données), plusieurs algorithmes Forêt aléatoire (qui crée un ensemble d'arbres de décision, ou une forêt de décision) pour des colonnes prédites aléatoirement. Extraire le gain d'information entraîne les étapes suivantes :

  • détermination de la moyenne du gain d'information (classement)
  • réduction des colonnes avec un faible gain d'information moyen.

Graphiques en courbes

Les graphiques en courbes dans l'Exploration intelligente sont basés sur les algorithmes de prédiction, qui ne peuvent fonctionner que si les données de série temporelle ont été ajoutées lors de l'ETL.

Étant donnés le classement et la hiérarchie temporelle, les prévisions ARIMA et Holt Winters sont estimées (en divisant les données). Les prévisions avec une moyenne des pourcentages d'erreur moyens (MAPE) au-dessus d'un plancher codé en dur seront présentées avec un graphique en courbes. Veuilles noter que les prédictions produiront un maximum de quatre graphiques.

Graphiques en nuages de points et Bulles

Les graphiques en nuages de points et Bulles constituent soit les résultats de l'algorithme de meilleur partition, soit du test de corrélation (Pearson). Les axes des abscisses et des ordonnées ainsi que la taille sont choisis au hasard.

Suivant le classement, les meilleures possibilités sont testées pour le partitionnement grâce à la Support Vector Machine (SVM) multiclasses. Le score d'apprentissage le plus élevé déterminera la requête utilisée pour construire les graphiques de partition.

Autres graphiques

Les graphiques en tableaux, en aires, en colonnes et en histogrammes sont basés sur des tests statistiques (le Pearson et le Chi carré) qui déterminent la présence de corrélations et de changements de tendance. Lorsqu'une variation de tendance adviendra, un graphique sera présenté.

Le type de graphique présenté dépend de la quantité de données représentées (le nombre de points et d'attributs) - les graphiques en camembert, en anneau et en pyramid contiennent moins d'attributs, tandis que ceux en aires et en arborescences en contiennent davantage.

 

Accueil | Table des matières | Index | Communauté d'utilisateurs
Pyramid Analytics © 2017-2019